查看原文
其他

凌波微课|扩增子研究第七讲:高通量下机数据质控标准

Young 凌波微课 2023-08-18
学生信,做分析,就上凌波微课

高通量下机数据质控标准

视频文字版

同学们,大家好!学生信,做分析,就上凌波微课!
欢迎大家扫描下方的二维码关注“凌波微课”,加入凌波微课交流群,参与我们的课程和课下交流。

扫码关注

我是主讲人小Young今天我们给大家分享的内容来自公众号“红皇后学术”。上一期我们介绍了高通量测序下机数据格式和质量评估标准,今天我们就带大家看一下高通量下机数据质控标准。

本期凌波微课主要有三个方面的内容:

1).高通量测序数据质控整体流程
2).数据质控基本概念
3).数据质控的标准





PART 1 

数据质控整体流程


高通量测序下机的原始数据raw reads中存在一些低质量数据、接头以及barcode序列等,为消除其对后续分析准确性产生的影响,在数据下机以后对原始数据进行质控处理就成了至关重要的环节。

 Illumina测序的下机数据一般为fastq格式,至于fastq格式的说明我们已经在上期《凌波微课|扩增子研究第六讲:高通量下机数据评估标准》中有详细描述,Illumina PE250测序序列首先需要对reads的质量进行质控过滤;接着根据PE reads之间的overlap关系,将成对的reads拼接(merge)成一条序列;最后按照barcode和引物序列拆分得到每个样本的优质序列,并在过程中根据正反barcode和引物方向校正序列方向以及去除嵌合体。

 




PART 2 

数据质控基本概念



扩增子barcodes



为什么扩增子有barcode?基因组测序、RNA-SeqChIP-Seq等等,都是一个文库对应一个样品,因此不需要使用barcode进行数据拆分。而扩增子使用barcode原因是扩增子目前研究对象细菌真菌多样性,其对数据量要求最多3-5w条序列即可饱合。而Illumina测序仪的通量很高,采用Index来区分每个文库,每个文库的数据量仍然可以达到千万的级别,加上建库测序的成本也不会低于千元。对于扩增子动辄成百上千的样品即太贵,又浪费。因此将扩增子样本添加上barcode(标签),通常将20-50个样品混合在一起,构建一个测序文库,达到高通量测序大量样品同时降低实验成本的目的。

通常的测序仪下机数据,只经过Index比对,拆分成来自不同文库的数据文件,分发给用户。而扩增子的一个文库包括几十个样品,还需要通过每个样品上标记的特异Barcode进一步区分,再进行下游分析。

那么Barcode一般在扩增子的位置和类型?

Barcode位于引物的外侧,比较典型的有三种,图展示的为最常用的barcode位于两端,此外还有右端和端两类也比较常用。

 


碱基质量值(Quality Score或Q-score)



Fastq数据中的质量字符并不是和质量值Q值直接对应起来的,fastq数据格式中的质量字符是ASCII值,在Phred+64体系中,ASCII值-64的结果就是Q值,在Phred+33体系中,ASCII值-33的结果就是Q值。在Phred体系中,Q = -10log10(P), 碱基质量值与误率的对应关系表如下所示:

注:Q10准确率为90%,Q20准确率为99%,Q30准确率为99.9%,Q40准确率为99.99%,Q50准确率为99.999%。

 


PCR Duplication



Duplication出现的类型有两种,一种是由于PCR扩增的原因导致的完全一样的reads,另一种是比对到基因组上同一位置不同的reads,但由于质量问题、测序错误、比对错误、等位基因等等,被认为是Duplication。

由于这些重复序列不能带来额外信息,相反会影响变异检测结果准确性,因此下游生信分析中这些重复序列是需要去除的去掉。这也就意味着Duplication rate越高,数据利用率越低,测序成本浪费的也就越多。因此在NGS生信分析中首要了解的就是Duplication rate的占比。重复序列包括3种情况:a. 完全重复,如(Full length)b. 前端重复,如(Prefix)c. 中间一段重复,如(Substring)

PCR扩增对Duplication Rate的影响

PCR扩增带有一定的偏好性和错配率,会影响最终形成文库的覆盖度和测序准确性。PCR本身对于不同GC含量的样本的扩增效率是不同的,中等GC含量扩增效率最高,高GC含量扩增最慢,也就是说PCR循环越多,扩增困难和扩增容易的片段之间相差就会越大,对应的分子多样性就会越低,Duplication就会增大。另外PCR本身在扩增的过程中可能会产生一些碱基的错配,错误的扩增可能会导致dup值升高。因此对于PCR过程中的Duplication值,我们可以人为的增加投入样本的量(增加样本DNA的多样性),同时降低PCR的循环数,选择均一性和保真性较好的扩增酶,就可以将这一过程中产生的Duplication,控制在合理的范围内。

Cluster生成对Duplication的影响:

Clusterflowcell上的生成也是一个PCR过程。这个PCR比较容易被人遗忘。如果cluster变少,影响Duplication rate。原因是比例少的分子可能不能产生cluster,唯一性分子数减少,进而影响Duplication rate。适当的cluster生成密度,不仅能够获得最佳的数据产量,也能够获得较低的Duplication rate。目前的平台中,我们都希望cluster是单克隆(monoclonal)的,多克隆(Polyclonal)的cluster会出现空间距离过近而导致图像识别时相互overlapcluster被测序识别程序过滤掉,造成的直接影响就是cluster密度过高,数据产量降低,整张芯片的cluster多样性降低,造成Duplication rate升高。

 


嵌合体 (Chimera)



样品在PCR的过程中,会有一些意外因素导致PCR产物由不同的模板复制得到不同的部分,使得PCR产物出现原本不存在的序列,称为嵌合体。嵌合体序列由来自两条或者多条模板链的序列组成,示意图如下:

PCR反应中,延伸阶段由于不完全延伸,就会导致嵌合体序列的出现,以上图为例,在扩增序列X的过程中,在序列延伸阶段,只产生了部分X序列延伸阶段就结束了,在下一轮的PCR反应中,这部分序列作为序列Y的引物接着延伸,扩增就会形成XY的嵌合体序列。

通常在PCR过程中,大概有1%的几率会出现嵌合体序列,而在16S/18S/ITS 扩增子测序的分析中,由于不同序列的相似度极高,嵌合体可达1%-20%,需要在分析前去除嵌合体序列。嵌合体的比例与PCR循环数相关,循环数越高,嵌合体比例越高。

 



PART 3 

数据质控标准


16S扩增子测序数据主要来自HiSeq2500产出的双端各250 bp (PE250)数据,因为读长长且价格便宜(性价比高)。PacBio读长长可直接测序16S全长1.5kb代表未来的趋势。

测序公司通常会返回raw data和clean data两种数据,raw data为测序获得的原始数据,而clean data则为去除含有接头序列及测序不确定N比例较高的结果,通常直接采用clean data进行质量评估及后续分析。

Illumina PE250测序序列首先需要对reads的质量进行质控过滤;接着根据PE reads之间的overlap关系,将成对的reads拼接(merge)成一条序列;最后按照barcode和引物序列拆分得到每个样本的优质序列,并在过程中根据正反barcode和引物方向校正序列方向以及去除嵌合体。

数据质控方法和参数

  • 采用Trimmomatic软件,窗口大小为10 bp,步长为1 bp,从5'端第一个碱基位置开始移动,从第一个平均质量值低于20的窗口处截断序列

  • 要求截断后的序列长度≥ 150 bp

  • 且不允许存在模糊碱基(Ambiguous base)N

  • 根据PE reads之间的overlap关系,将成对reads拼接(merge)成一条序列,最小overlap长度为10bp

  • 拼接序列的overlap区允许的最大错配比率为0.2,筛除不符合序列;

  • 根据序列首尾两端的barcode和引物区分样品,并调整序列方向,barcode允许的错配数为0,最大引物错配数为2


序列的嵌合体通过Usearchhttp://drive5.com/usearch/)与gold database比对去除。

Usearch比对原理

  • 输入序列被切割成4个没有重叠的部分chunk

  • 每一个用来去比对数据库的序列,每一个chunk匹配上的数据库中的序列被标记出来。

  • 通过计算相似性最近的两条父链被发现。

  • 如果得分超过阀值则认定为嵌合体。

今天的分享就介绍到这里~感谢来自“红皇后学术”的内容分享。

下一期,我们将为大家介绍OUT物种分类注释

玩转科研就来凌波微课,我们下期见!


往期精彩

凌波微课|扩增子研究第六讲:高通量下机数据评估标准

凌波微课|扩增子研究第五讲:微生物群落研究建库测序流程

凌波微课|扩增子研究第四讲:微生物群落研究策略

凌波微课|扩增子研究第三讲:微生物群落研究的目的

凌波微课|测序技术发展史及应用

凌波微课|分子钟学说和现代应用

凌波微课|微生态群落中单个物种的绝对定量?

凌波微课|藻类与陆生植物起源

凌波微课|读播:如何回复审稿意见

凌波微课|如何消除数据的批次效应?选对工具很重要

凌波微课|生物学重复,你有必要知道的那些事儿!

凌波微课|生物学重复,值得你拥有!

凌波微课|微生物组多样性研究新热门——16s rDNA全长扩增子测序 




END





红皇后学术以微生物群落研究为核心,重点关注扩增子测序和宏基因组测序,同时辐射转录组、蛋白质组合代谢组。

在分析技术上,主要为基于R语言的组学数据统计、分析和可视化解决方案。

凌波微课,创意于2020年不平凡的春天,由高通量测序及组学研究领域从业近十年的技术团队精心打造。

凌波微课的讲师们,实战经验丰富,旨在通过在线微课程及线下交流,帮助科研学生及科研工作者们由简入繁,掌握科研思路及生信分析的实际操作。凌波微课,用心服务科研用户,打造专业培训品牌,助力科研提升。

关注我

发现更多精彩

关注凌波微课公众号,回复“入群”,即可加入凌波微课课下交流群,更多干货等你呦!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存